Skriptum VL Text-Indexierung

نویسنده

  • Johannes Fischer
چکیده

In this section we will introduce suffix trees, which, among many other things, can be used to solve the string matching task (find pattern P of length m in a text T of length n in O(n+m) time). In the exercises, we have already seen that other methods (Boyer-Moore, e.g.) solve this task in the same time. So why do we need suffix trees? The advantage of suffix trees over the other string-matching algorithms (Boyer-Moore, KMP, etc.) is that suffix trees are an index of the text. So, if T is static and there are several patterns to be matched against T , the O(n)-task for building the index needs to be done only once, and subsequent matching-tasks can be done in O(m) time. If m << n, this is a clear advantage over the other algorithms. Throughout this section, let T = t1t2 . . . tn be a text over an alphabet Σ of size |Σ| =: σ. Definition 1. A compact Σ+-tree is a rooted tree S = (V,E) with edge labels from Σ+ that fulfills the following two constraints:

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Skriptum VL Text Indexing

In this section we will introduce suffix trees, which, among many other things, can be used to solve the string matching task (find pattern P of length m in a text T of length n in O(n + m) time). We already know that other methods (Boyer-Moore, e.g.) solve this task in the same time. So why do we need suffix trees? The advantage of suffix trees over the other string-matching algorithms (Boyer-...

متن کامل

Kontext-Indexierung in Documentenbeständen - ein innovativer Beitrag der Documentenverwaltung für betriebliches Wissenmanagement

Im Beitrag stellen wir unser Dokumentationskonzept dar, das auf eine prozessbegleitende und bereichsübergreifende Dokumentation der betrieblichen Auftragsbearbeitung abzielt. Ausgehend von den Arbeitsstrukturen der Akteure unterstützt es sie technisch und organisatorisch bei der Bearbeitung und Ergänzung der Dokumentation. Die Dokumentation gründet auf kooperativen Prozessen, die unterschiedlic...

متن کامل

Visual AWK: A Model for Text Processing by Demonstration

Programming by Demonstration systems often have problems with control structure injerence and user-intended generalization. We propose a new solution for these weaknesses basred on concepts of AWK and present a prototype system for text processing. I t utilizes ‘vertical demonstration’, extensive visual feedback, and program visualization via spreadsheets to achieve improved usability and expre...

متن کامل

Flexible Indexierung für Ähnlichkeitssuche mit logikbasierten Multi-Feature-Anfragen

Ähnlichkeitssuche beschäftigt sich mit dem Auffinden ähnlicher Objekte zu einem vorgegebenen Anfrageobjekt. Die logische Kombination verschiedener Features des Anfrageobjekts erhöht dabei die Ausdruckskraft von Anfragen und führt zu besseren Anfrageergebnissen. Um eine effiziente Suche zu ermöglichen ist eine Indexierung der Datenbankobjekte nötig. Neben einer möglichst hohen Sucheffizienz spie...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2010